Adam(Adaptive Moment Estimation)

Momentum Gradient Descent과 Adaptive Learning Rates을 적절하게 혼용한 방법으로, 가장 좋은 방법으로 현재 평가받고 있다.

w^{t + 1} = w^{t} - \frac{η}{ν ~ ^{t} + ϵ} \tilde{m^{t}}

$ϵ$ 은 $\tilde{ν^{t}}$ 가 거의 0에 가까워져서 분모가 0에 가까운 값이 됐을 때, 수치적 오류를 방지하기 위한 term이다.

$m^{t} = α m^{t - 1} + (1 - α) \frac{\partial E}{\partial w}$ , when $m^{0} = 0$ , $α = 0.9$ : momentum
$\tilde{m^{t}} = \frac{m ^{t}}{1 - ( α ) ^{t}}$ : $t = 1$ 과 같이 작을 때는 $\frac{\partial E}{\partial w}$ 을 복구시키고, $t$ 가 커지면 분모가 1에 가까워져 $m^{t}$ 의 값이 그대로 사용되게 한다.
$ν^{t} = β ν^{t - 1} + (1 - β) (\frac{\partial E}{\partial w})^{2}$ , when $ν^{0} = 0$ , $β = 0.999$ : Learning Rate를 조절하는 항이다.
$\tilde{ν^{t}} = \frac{ν ^{t}}{1 - ( β ) ^{t}}$ : 마찬가지로 초반에는 최근값을 반영시키고, $t$ 가 커지면 이전 값을 거의 그대로 사용한다.